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摘要 : 【 目的 】 通 过 对 电子 病历 中 重要 文本 进行 语义 分 析 , 提取 辅助 临床 治疗 方案 选择 的 决策 知识 ,实现 电子 病 


历 的 临床 决策 支持 功能 。[ 方法 ] 使 用 词典 和 统计 相 结 合 


的 分 词 算法 ， 对 训练 样本 中 出 院 记 录 文 本 进行 分 词 处 理 ， 


从 中 提取 临床 术语 及 治疗 方案 ,并 对 其 进行 潜在 语义 分 析 , 找 出 临床 术语 与 治疗 方案 之 间 的 潜在 语义 联系 ， 建 
立 胃癌 治疗 方案 辅助 选择 的 潜在 语义 模型 。[ 结果 】 利 用 测试 样本 对 语义 模型 进行 测试 , 在 三 维 语义 空间 内 , 发 
现 1 000 份 测试 样本 中 有 605 份 可 以 从 临床 症状 的 描述 准确 地 推算 出 其 所 对 应 的 治疗 方案 , 正确 率 为 60.5%。 
【局 限 】 仅 以 出 院 记录 文本 为 研究 对 象 , 没有 对 其 他 病历 文本 进行 分 词 处 理 。[ 结论 】 洪 在 语义 分 析 方 法 能 够 有 
效 地 处 理 临 床 文本 , 辅助 医生 的 临床 决策 ， 对 于 电子 病历 的 开发 应 用 具有 重要 意义 。 
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病历 是 一 种 十 分 重要 的 医学 信息 资源 。 我 国 卫 生 
信息 化 进程 的 加 速 使 得 电子 病历 逐渐 普及 ， 而 电子 病 
历 的 价值 也 越 来 越 受到 相关 领域 专家 学 者 的 重视 。 电 
子 病历 中 除了 结构 化 数据 , 还 存在 大 量 非 结构 化 数据 ， 
既 有 规范 的 临床 术语 ， 也 有 不 规范 的 自然 语言 。 从 电 
子 病历 中 提取 知识 用 于 临床 决策 , 已 成 为 近年 来 电子 
病历 应 用 研究 中 亟 待 解决 的 主要 问题 之 一 。 

全 球 胃 癌 的 发 病 率 和 死亡 率 居 恶 性 肿瘤 的 第 2 位 


了 中 


电子 病历 的 普及 , 依据 大 规模 历史 病历 文本 建立 临床 
决策 支持 系统 ,辅助 医务 人 员 开 展 临 床 诊疗 工作 , 对 
提高 胃癌 的 治疗 效果 ,提高 电子 病历 的 使 用 价值 , 具 
有 十 分 重要 的 意义 。 
2 研究 背景 

目前 ， 国 内 在 电子 病历 结构 化 方面 , 由 于 中 文 
语言 的 特殊 性 ， 医护 人 员 通 常 以 自由 文本 的 形式 对 
患者 的 相关 临床 信息 进行 描述 。 医 护 人 员 在 使 用 这 
些 描述 性 语言 时 ， 用 词 不 受 约束 , 可 以 使 用 任意 词 


和 第 3 位 , 胃癌 的 诊疗 是 人 们 高 度 关注 的 研究 热点 。 
对 每 一 个 胃癌 病人 而 言 , 合理 的 个 性 化 治疗 方案 是 提 
高 治愈 率 和 取得 良好 治疗 效果 的 前 提 。 对 于 采取 何 种 
治疗 方案 , 目前 主要 还 是 依靠 医生 的 主观 经 验 。 随 着 


汇 、 代 码 或 者 缩 略 词 。 这 种 方式 会 造成 临床 数据 共 
FAW, 不 利于 临床 数据 的 利用 和 临床 医疗 决策 文 
持 系统 的 应 用 。 因 此 国内 对 于 电子 病历 系统 的 研究 ， 
还 是 侧重 于 电子 病历 系统 编辑 占 的 研究 ， 并 没有 实 
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语义 分 析 及 应 用 研究 (项目 编 号 :13BTQ052) 的 研究 成 果 之 一 。 


现 具有 较 强 临床 决策 支持 功能 的 电子 病历 系统 。 从 
电子 病历 中 提取 知识 ， 就 要 使 病历 内 容 能 被 计算 机 
“理解 ” 而 语义 分 析 则 是 计算 机 “理解 ”病历 内 容 的 
有 效 方法 。 

潜在 语义 分 析 (Latent Semantic Analysis，LSA) 作 
为 一 种 用 于 知识 获取 、 归 纳 和 展示 的 计算 理论 和 方法 ， 
具有 可 计算 性 强 、 主 观 影 响 因素 少 等 优点 趾 。 它 利用 
统计 学 方法 对 文本 集 进行 处 理 ， 从 而 提取 出 词 的 潜在 
语义 结构 ,这 种 潜在 语义 结构 即 是 词语 在 上 下 文 语 境 
信息 的 总 和 。 经 过 20 多 年 的 发 展 , LSA 理论 与 技术 已 
较为 完善 、 成 熟 , 且 已 被 用 于 处 理 医学 信息 , Cohen 等 
利用 潜在 语义 分 析 法 构建 了 精神 病 术 语 的 语义 空间 名 
并 探索 抽取 相关 概念 之 间 的 语义 关系 中 ,Ginter 等 应 用 
潜在 语义 分 析 法 和 隐 马 尔 可 夫 模 型 对 分 割 、 标 识 护 理 
文档 主题 开展 研究 外 。Wild 等 结合 网 络 分 析 和 潜在 语 
义 分析 法 对 医学 概念 的 发 展 进行 研究 外 ,Wang 等 依据 
病历 信息 , 利用 LSA 实现 了 生物 医学 时 间 序 列 的 自动 
RN, Abate 等 则 依托 PubMed 文献 数据 库 , 利用 洪 
在 语义 分 析 法 将 生物 医学 文献 中 的 生物 医学 术语 的 相 
关 关 系 进行 量化 "。 国 内 甘 艳 芳 等 利用 LSA 计算 中 医 
证 候 间 的 相关 关系 钻 , 雷 茧 等 基于 中 医药 文献 数据 ， 
使 用 概率 潜在 语义 分 析 算 法 研究 中 药 配伍 方案 , 为 中 
药 处 方 发 现 提 供 新 途径 名。 目前 国内 主要 针对 已 有 的 
较为 规范 的 临床 术语 或 医学 文献 主题 词语 义 关 系 进 行 
研究 , 还 没有 对 于 临床 实践 应 用 较 多 的 大 量 的 非 规范 
化 临床 用 语 进行 相关 语义 分 析 的 研究 。 

本 文 收集 了 1500 份 胃 肿瘤 病例 的 出 院 记录 ， 抽 
取 其 中 的 文本 作为 研究 对 象 - 以 中 国 科 学 院 计 算 技术 
研究 所 ICTCLAS 分 词 系统 为 基础 ， 对 出 院 记 录 文 本 
的 词语 切 分 进行 探索 , 利用 中 国生 物 医学 文献 数据 
库 术语 、 基 于 互信 息 的 统计 方法 对 出 院 记录 文本 进行 
分 词 处 理 ,从 中 抽取 临床 术语 ; 制定 胃 肿 瘤 治疗 方案 
自动 抽取 规则 ,并 使 用 Python 编写 脚本 从 出 院 记录 
中 提取 了 胃 肿 瘤 治 疗 方案 ; 利用 潜在 语义 分 析 方 法 
建立 胃 肿 瘤 治 疗 方案 选择 决策 支持 模型 ， 并 对 其 进 
行 评价 。 在 此 过 程 中 , 构建 了 临床 术语 与 治疗 方案 的 
共 现 矩阵 ， 并 利用 NumPy 进行 矩阵 的 奇异 值 分 解 ， 
得 到 临床 术语 和 治疗 方案 在 语义 空间 中 的 坐标 向 量 ， 
计算 出 两 者 之 间 的 相关 度 ,按照 相关 度 大 小 抽取 决 
策 规 则 , 初步 完成 了 胃 肿 瘤 治疗 方案 选择 支持 模型 


的 建立 ， 并 利用 另外 的 1 000 份 病例 记录 作为 测试 样 
本 ,完成 模型 的 验证 ， 为 临床 决策 支持 系统 的 开发 黄 
定 基础 口 


3 ”研究 对 象 与 方法 


3.1 数据 来 源 

从 湖南 省 多 所 三 甲 医院 中 提取 2 500 份 2010 年 - 
2014 年 间 第 一 诊断 为 胃癌 LCD-10 编码 : C16, D00.2) 
的 病历 ， 随 机 抽取 1 500 份 用 于 训练 , 其余 1 000 份 用 
于 测试 。 

病历 中 的 出 院 记 录 主 要 包含 住院 病情 摘要 、 诊 治 
经 过 、 出 院 时 情况 和 出 院 医嘱 等 模块 ， 是 患者 完整 电 
子 病历 的 高 度 浓缩 。 其 中 , 住院 病情 摘要 模块 详细 记 
录 了 患者 住院 时 的 临床 症状 及 检查 检验 结果 ,诊治 经 
过 模块 中 详细 记录 了 患者 的 整个 诊治 过 程 。 患 者 出 院 
记录 部 分 内 容 示 例如 图 1 Bron: 


年 男性 ， 腹 胀 半年 。 体 查 : 体温 36. 57C 脉搏 80 次 /分 呼吸 20 次 /分 血压 
125/T0mmHg 皮肤 粘膜 色泽 正常 ， 巩 膜 无 黄 染 。 肺 部 无 异常 ， 心 前 区 无 隆起 ， 心 
尖 捕 动 正常 ， 位 于 左 侧 第 5 肪 间 锁 骨 中 线 内 侧 0. 5cm。 肺 部 无 异常 ， 全 腹 和 柔软 ， 
右 下 膜 可 触及 一 肿块 ， 无 压痛 ,无 反 跳 痛 ; 肝脏 剑 突 下 未 及 , 肋 下 未 及 ; 脾脏 肋 
下 未 及 ; 肾脏 未 及 。 肝 区 无 郧 痛 ， 双 肾 区 无 Ph 痛 ， 移 动 性 浊音 阳性 。 肠 鸣 音 3 
RD RER. REX. MELER. ANA MERJEK HUTE 
水 肿 。 肛 门 外 生殖 器 正常 。 生 理 反 射 正 常 ， 肌 张力 正常 ， 肌 力 5 级 。 入 院 后 完善 
相关 检查 , 血 常规 、 肝 肾 功 能 电解 质 、 心 电 图 基本 正常 。 胸 片 示 双 上 肺 陈旧 性 结 
核 ， 右 上 肺结核 球形 ， 建 议 进一步 CT 检查 。ECG 示 塞 性 心动 过 缓 ,T ioi, D 
部 CT 示 上 腹部 网 膜 增 厚 并 多 发 淋巴 结 肿 大 右 肝 实质 性 结 节 腹水 。 考 虑 骨 癌 腹腔 
广泛 转移 。 于 2013-06-19 予 奥 沙 利 铂 针 + 痊 吉 奥 胶 吉 化 疗 ， 辅 以 护 胃 护 肝 护 心 、 
止 哎 等 对 症 支 持 治疗 。。 


图 1 出 院 记录 部 分 内 容 示 例 


3.2 ”治疗 方案 的 抽取 

通过 咨询 相关 临床 医生 并 参考 《胃癌 规范 化 诊疗 
指南 (试行 )》5 95， 将 胃癌 的 治疗 方案 归纳 为 手术 治疗 、 
放 化 疗 、 手 术 治 疗 与 放 化 疗 相 结合 以 及 对 症 治疗 4 种 。 
在 翻阅 大 量 病历 资料 和 咨询 相关 医生 的 基础 上 , 发现 
出 院 记录 中 车 采取 手术 治疗 , 通常 会 有 与 手术 相关 的 
字样 ; 如 采取 放 化 疗 方案 ,也 会 有 与 放 化 疗 相 关 的 字 
样 。 通 过 对 病历 信息 的 查阅 , 得 到 治疗 方案 与 相关 字 
样 的 对 应 关系 如 表 1 所 示 : 

表 1 治疗 方案 与 相关 字样 对 应 关系 


治疗 方案 相关 字样 
手术 治疗 。 。 全 床 、( 全 ) 床 、 行 目镜 下 、 胃 癌 根 治 术 、 
ANE FIACNUAHIBICR , JER, ARR 
放 化 疗 化 疗 、 放 疗 和 放 化 疗 相关 药品 名 称 
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根据 病历 中 “诊治 经 过 ”的 文本 内 容 , 制定 如 下 规 
则 , 用 于 抽取 治疗 方案 : 

(1) 若 其 中 含有 “手术 ”相关 字样 而 不 含 “ 放 化 疗 ” 
相关 字样 , 则 治疗 方案 被 认定 为 手术 治疗 ; 

D 若 其 中 含有 “手术 ”相关 字样 上 且 含 有 “ 放 化 疗 ” 
相关 字样 , 则 治疗 方案 被 认定 为 手术 + 放 化 疗 ; 

Q) 知 其 中 含有 “ 放 化 疗 ” 相 关 字 样 ， 且 不 含 “ 手 
术 ” 相 关 字 样 , 则 治疗 方案 被 认定 为 放 化 疗 ; 

(4) 若 其 中 既 无 “手术 ”相关 字样 也 无 * 放 化 疗 ” 相 
XE, 则 治疗 方案 被 认定 为 对 症 治疗 。 

按照 上 述 规则 , 利用 Python 编写 程序 , 对 2 500 
份 出 院 记 录 ( 包 括 1 500 份 训练 样本 和 1 000 份 测试 样 
本 ) 进 行 处 理 , 提取 出 每 一 份 出 院 记录 中 的 治疗 方案 。 
结果 发 现 , 其 中 1 102 例 采 取 手 术 治 疗 , 286 例 采 取 手 
术 + 放 化 疗 , 457 例 采 取 放 化 疗 , 655 例 对 症 治 疗 。 例 如 ， 
对 图 1 所 示 的 出 院 记 录 进 行 治疗 方案 抽取 ， 结 果 为 放 
化 疗 , 这 与 实际 结果 是 一 致 的 .从 2 500 份 样本 中 随机 
抽取 100 份 出 院 记录 , 进行 人 工 核查 ,发 现 有 95 份 抽 
取出 的 治疗 方案 与 实际 相符 合 ,正确 率 达 到 95%, 证 
实 该 抽取 方案 是 可 行 的 。 
3.3 ”临床 术语 的 抽取 

本 文 利用 自 定义 词典 结合 统计 分 词 的 方法 抽取 病 
历 文本 中 的 临床 术语 。 实 验 在 MyEclipse 集成 开发 环 
境 下 , 参考 ICTCLAS 5.0 分 词 系统 提供 的 APL 采用 
Java 语言 实现 对 出 院 记 录 文 本 的 分 词 处 理 品 。 具 体 步 
又 如 图 2 所 示 : 
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图 2 分 词 流程 
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以 中 国生 物 医学 文献 数据 库 (SinoMed) 为 依据 , 构 
建 自 定义 词典 。SinoMed 中 包含 大 量 的 临床 研究 文献 ， 
并 且 在 题 录 中 有 规范 的 主题 词 和 关键 词 。 本 研究 以 分 
类 号 “R735.2” 检 索 SinoMed 中 2001 年 -2003 年 的 文献 
( 近 几 年 的 文献 题 录 中 只 标注 了 关键 词 , 没有 标注 主题 
词 )， 共 检索 到 有 效 文献 题 录 4244 条 , 抽取 其 中 的 关 
键 词 和 主题 词 , 合并 去 重 后 得 到 自 定义 词典 , 共 含有 
5 429 个 词汇 。 

采用 统计 方法 进一步 完善 自 定义 词典 。 利 用 ICTCLAS 
分 词 系 统 , 使 用 以 上 步骤 所 构建 的 自 定义 词典 , 对 1 500 
份 训练 样本 数据 进行 词语 切 分 后 ， 直 接 对 切 分 结果 进行 
统计 分 析 , 计算 相 邻 词汇 的 互信 息 值 喇 公式 为 : 


P(A,B) 


MI(A,B) = log, POOP(B) 


Q) 


其 中 , P(A, B) 表 示 词 汇 A, B 在 所 有 记录 中 共 现 频 
次 的 概率 , P(A) 表 示 出 现 词汇 A 的 概率 , P(B) 表 示 出 现 
词汇 B 的 概率 。 在 实验 文本 中 , 相 邻 两 个 字 组 合生 成 
新 的 词汇 共有 51 658 种 可 能 ,其 中 互信 息 值 大 于 等 于 0 
的 词 对 共有 11 845 种 , 将 其 与 之 前 构建 的 自 定义 词典 
中 的 5 429 个 词汇 进行 合并 去 重 , 构成 新 的 自 定义 词 
典 , 共 含 有 词汇 17 113 个 。 

利用 所 建 自 定义 词典 对 医疗 文本 进行 切 分 ,依据 所 
构建 的 自 定 义 词典 , 再 次 对 1 500 份 训 练 样本 出 院 记 录 
进行 切 分 。 图 1 的 出 院 记 录 切 分 的 结果 如 图 3 所 示 , 发 
现 词典 分 词 结合 统计 分 词 的 方法 可 以 弥补 ICTCLAS 系 
统 的 不 足 , 能 够 将 ICTCLAS 系统 拆 分 开 的 词汇 有 效 地 
合并 起 来 。 例 如 , 可 以 将 “无 黄 染 *"、“ 无 压痛 ”"、“ 外 生殖 
器 ”等 临床 症状 描述 的 术语 准确 地 切 分 出 来 。 


中 年 男性 EK 半年 HE: 体温 36.5 "CO 脉搏 


80 ix/3r TER 20 次 /分 血压 125 /TOmmHg 皮肤 粘 


膜 色泽 正常 ， HUE 无 黄 染 。 肺 部 无 异常 ， 心 前 区 
无 隆起 ， DA 搏动 正常 ， 位 于 Am 第 5 肋 间 锁骨 中 
£k 内 出 ü.5cm o 肺 部 无 异常 ， 全 腹 柔软 ， ATIR 


可 Ak 一 肿块 ， 无 压痛 . ARBHAR: 肝脏 à F 
RR: BFAR: 脾脏 BÜRO GRGR: 肾脏 RR o 
FE EIA» WE 区 APA.: Pahl 济 音 阳性 。 
GE 3 次 “分 E 正常 。 GRE Fo WE 无 压痛 
, ZW. 四 肢 xb 正常 ， RM 下 肤 无 水 肿 。 肛门 
外 生殖 器 正常 。 生理 反射 正常 ， 肌 张 力 正常 ， MA 
588 。 AR 后 完善 相关 检查 ， 血 常规 、 肝 肾 功能 
电解 质 。 心电图 基本 正常 。 胸 片 示 X EBE 陈旧 性 
Ek. Abit hp 球形 ， 建 说 进一步 CT 检查 。 ECG 
T 案 性 心动 过 绥 . TUR 改变 。 腹部 CT 示 上 腹部 网 膜 
HE 并 2 淋巴 结 肿 太 右 肝 实质 性 结 节 腹 求 。 cm 
E We 腹腔 广泛 转 称 . 于 2013-06-19 F 奥 沙 利 宾 
şt + GEA RE 化 疗 ， 辅 以 护 置 护 肝 护 心 。 止 哎 
等 对 症 支持 治疗 


图 3 2i 


采用 ICTCLAS+ 自 定义 词典 + 统计 分 词 策略 对 
1500 份 训 练 样本 进行 切 分 , 并 统计 每 一 个 切 分 出 来 
的 临床 术语 的 出 现 频 次 ,剔除 掉 标 点 符号 、 数 字 、 日 
期 、 单 个 字符 等 特殊 字符 以 及 与 治疗 方案 相关 的 手术 
名 称 与 放 化 疗 药品 名 称 等 , 结果 如 表 2 所 示 : 

表 2 临床 术语 频次 统计 


序号 词汇 频次 
1 未 见 3 864 
2 正常 3 346 
3 入 院 3 239 
4 患者 3 031 
5 未 触及 2 662 
6 淋巴 结 2472 
1091 表面 凹凸 不 平 15 
1092 两 端 15 
7209 唐 * 秋 1 
7210 段 * 勤 1 


为 了 防止 临床 术语 与 治疗 方案 共 现 频次 和 矩阵 过 于 
稀 玻 而 影响 计算 结果 , 本 实验 只 抽取 临床 术语 出 现 频 
次 大 于 等 于 15 的 词汇 , 得 到 词汇 1 092 条 。 

3.4 潜在 语义 空间 的 构造 

(1) 临床 术语 -治疗 方案 矩阵 的 构建 

在 提取 临床 术语 、 治 疗 方案 的 基础 上 , 根据 临床 
术语 与 治疗 方案 之 间 的 共 现 情况 , 构建 临床 术语 - 治 
疗 方案 矩阵 。 利 用 Java 编制 程序 , 统计 1 500 份 训练 
样本 中 临床 术语 与 治疗 方案 在 出 院 记 录 中 的 共 现 频 
次 , 生成 临床 术语 -治疗 方案 矩阵 H(1092 x 4), 其 部 分 
示例 如 表 3 Bron: 

表 3 ”临床 术语 -治疗 方案 共 现 矩阵 HGB) H) 


临床 症状 — — n e 
手术 + 放 化 疗 ”手术 对 症 治疗 ”” 放 化 疗 

无 压痛 116 308 168 127 
KS 81 372 13 8 
免疫 20 101 90 64 
伴 恶心 10 10 7 1 
广泛 转移 4 3 2 10 
弱 阳性 1 5 12 12 


Q) 临床 术语 -治疗 方案 矩阵 的 奇异 值 分 解 

奇异 值 分 解 (Singular Value Decomposition, SVD) 
是 LSA 中 构造 语义 空间 的 常见 方法 之 一 , 大 量 应 用 于 
解决 不 受 限 的 最 小 立方 问题 、 和 矩阵 阶 次 估计 和 规范 相 
关 分 析 等 问题 ,通过 和 矩阵 的 奇异 值 分 解 ， 可 得 到 和 矩 阵 A 
的 三 个 原始 矩阵 乘积 的 形式 : 

A=UD v" Q) 

其 中 , U 是 m xr 的 A 的 左 奇异 正 交 矩阵, URBS p] 
量 称 为 左 奇异 值 向 量 ,V 是 r x n 的 A 的 右 奇异 正 交 矩阵 , 
V 的 行 向 量 称 为 右 奇异 值 向 量 。 光 是 r x r 的 A 的 奇异 值 
组 成 的 对 角 和 矩阵 。 
在 本 实验 中 , 利用 NumPyb 实 现 和 矩阵 的 奇异 值 分 
解 ， 将 临床 术语 -治疗 方案 矩阵 分 解 成 三 个 矩阵 U、S、 
V, 其 中 矩阵 U 的 1 092 个 行 向 量 代表 1 092 个 临床 术 
语 在 语义 空间 中 的 坐标 向 量 , 矩阵 V 的 4 个 行 向 量 代 
de 4 种 治疗 方案 在 语义 空间 中 的 坐标 向 量 。 由 于 和 矩阵 
U 和 和 矩阵 V 的 维度 大 , 计算 较为 复杂 ,因此 本 研究 将 
Uv 分 别 投影 到 二 维 、 三 维和 四 维 语义 空间 内 ， 然 
后 计算 临床 术语 和 治疗 方案 在 二 维 、 三 维和 四 维 语义 
空间 内 的 坐标 向 量 睛 ]。 

对 所 得 的 矩阵 进行 奇异 值 分 解 , 根据 矩阵 UU 和 V, 
4r DSOEEE U 和 V 的 前 两 列 、 前 三 列 和 全 部 四 列 , 分 
别 可 以 得 到 临床 术语 和 治疗 方案 在 二 维 、 三 维和 四 维 
语义 空间 内 的 坐标 向 量 ,， 如 表 4 mu 9 所 示 : 

表 4 临床 术语 在 二 维 语义 空间 内 的 坐标 向 量 示 例 


临床 术语 二 维 语义 空间 坐标 
无 压痛 -0.1007  —0.0638 
X —0.0384 0.0662 
免疫 -0.0139 -0.0439 
伴 恶心 -0.0014 -0.0016 
广泛 转移 -0.0009 -0.0028 
弱 阳 性 -0.0011 —0.0088 


de 5 临床 术语 在 三 维 语义 空间 内 的 坐标 向 量 示例 


临床 术语 三 维 语义 空间 坐标 

无 压痛 -0.1007 -0.0638 0.0045 
KS -0.0384 0.0662 0.0107 
免疫 -0.0139 — —0.0439 0.0122 
伴 恶心 -0.0014 — —0.0016 — —0.0026 
广泛 转移 -0.0009 — —0.0028 -0.0072 
弱 阳 性 -0.0011 -0.0088 -0.0012 
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表 6 临床 术语 在 四 维 语义 空间 内 的 坐标 向 量 示例 


临床 术语 四 维 语义 空间 坐标 

无 压痛 -0.1007 -0.0638 0.0045 0.0945 
KE -0.0384 0.0662 0.0107 -0.0199 
免疫 -0.0139  —0.0439 0.0122 0.0353 
FEED -0.0014 -0.0016 -0.0026 0.0001 
广泛 转移 -0.0009  —0.0028 -0.0072 0.0010 
弱 阳性 -0.0011  —0.0088 -0.0012 -0.0025 


表 7 治疗 方案 在 二 维 语义 空间 内 的 坐标 向 量 


治疗 方案 二 维 语义 空间 坐标 
手术 + 放 化 疗 -0.2311 0.0022 
手术 -0.9191 0.3270 
对 证 治疗 -0.2469 -0.7655 
放 化 疗 -0.2023 -0.5542 


表 8 治疗 方案 在 三 维 语义 空间 内 的 坐标 向 量 


治疗 方案 三 维 语义 空间 坐标 
手术 + 放 化 疗 -0.2311 0.0022 -0.6432 
手术 -0.9191 0.3270 0.1587 
对 证 治疗 -0.2469 -0.7655 0.4815 
放 化 疗 -0.2023  -0.5542 . -0.5738 


表 9 治疗 方案 在 四 维 语义 空间 内 的 坐标 向 量 


治疗 方案 四 维 语义 空间 坐标 

手术 + 放 化 疗 -0.2311 0.0022 -0.6432 0.8592 
手术 -0.9191 0.3270 0.1587 -0.2075 
对 症 治疗 -0.2469 -0.7655 0.4815 0.2722 
放 化 疗 -0.2023  —0.5542 -0.5738 -0.3802 


3.5 ”潜在 语义 空间 的 应 用 

由 临床 术语 -治疗 方案 矩阵 构建 的 潜在 语义 空间 
能 充分 体现 临床 术语 与 临床 术语 之 间 、 临 床 术语 与 治 
疗 方 案 之 间 以 及 治疗 方案 与 治疗 方案 之 间 的 相关 关 
系 。 要 查询 单个 或 多 个 临床 术语 与 某 一 治疗 方案 的 相 
关 关 系 ， 只 需 将 所 查询 的 临床 术语 投影 到 所 构建 的 潜 
在 语义 空间 中 , 计算 出 其 在 语义 空间 内 的 坐标 向 量 ， 
采用 余弦 夹 角 定理 , 即 可 计算 出 临床 术语 或 临床 术语 
组 合 的 坐标 向 量 与 各 治疗 方案 之 间 的 语义 距离 。 根 据 


如 下 : 


n 
>》 DqiDi 
kl 


[Eoo (Dj) 
k-l k-l 


Kp, Ca 为 查询 向 量 在 语义 空间 内 的 坐标 向 量 
Dq 与 某 治疗 方案 在 语义 空间 内 的 坐标 向 量 D 之 间 的 
相关 度 大 小 , Dq HE Dg 的 第 i 个 分 量 , Di; 为 向 量 D 
的 第 i 个 分 量 , n 为 语义 空间 的 维度 大 小 。 在 NumPy 
H, 编写 程序 计算 查询 向 量 与 所 有 治疗 方案 的 相关 度 ， 
并 以 相关 度 值 最 大 的 治疗 方案 作为 决策 结果 ,建立 治 
疗 方案 选择 的 决策 支持 模型 。 

3.6 决策 支持 模型 的 评价 

对 于 所 建立 的 决策 支持 模型 ， 可 以 通过 准确 性 进 
行 评价 ,其 步骤 与 以 上 建 模 过 程 相似 。 对 测试 样本 进 
行 治疗 方案 抽取 、 分 词 处 理 ; 经 奇异 值 分 解构 建 相应 
的 二 维 .三 维和 四 维 语义 空间 ; 计算 出 相关 度 , 并 根据 
相关 度 大 小 决定 每 个 样本 的 治疗 方案 , 将 计算 出 的 治 
疗 方案 与 实际 的 治疗 方案 进行 对 照 , 一 致 者 为 准确 预 
测 ,不一致 为 错误 预测 。 

例如 , 对 于 图 1 的 出 院 记录 ,从 中 抽取 治疗 方案 ， 
对 其 文本 进行 分 词 , 并 依据 其 出 现 频 次 构建 查询 向 量 
Xq。 将 Xq 投影 到 语义 空间 中 , 分 别 得 到 其 在 二 维 语 
义 空间 的 坐标 向 量 Dq»(-0.0008, -0.0029) 、 三 维 语义 空 
间 内 的 坐标 向 量 Dq3(-0.0008, -0.0029, -0.0010) 和 四 维 
语义 空间 的 坐标 向 量 Dqs(-0.0008, —0.0029, —0.0010, 
0.0024)。 通 过 余弦 公式 计算 此 向 量 Xq 与 各 治疗 方案 
向 量 在 同一 个 语义 空间 内 的 相关 度 。 将 治疗 方案 按照 
相关 度 大 小 降序 排序 , 结果 如 表 10 ER 12 Bron: 


Cq- (4) 


各 临床 术语 的 出 现 频 率 生 成 查询 向 量 XU, FEA 
(3) 对 Xq 进行 处 理 


o 


Dq-XqUS' 6) 

其 中 , Dq 为 待 查询 向 量 在 语义 空间 中 的 坐标 向 量 。 
通过 余弦 夹 角 公式 "可 以 计算 出 临床 术语 或 临 
床 术 语 组 合 与 治疗 方案 在 语义 空间 内 的 相关 度 ,公式 
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表 10 二 维 空间 内 治疗 方案 及 其 相关 度 
治疗 方案 相关 度 
对 症 治疗 0.9995 
放 化 疗 0.9976 
手术 + 放 化 疗 0.2686 
手术 -0.0604 

表 11 三 维 空 间 内 治疗 方案 及 其 相关 度 
治疗 方案 相关 度 
放 化 疗 0.9033 
对 证 治疗 0.6435 
手术 + 放 化 疗 0.3925 
手术 —0.1086 
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表 12 四 维 空间 内 治疗 方案 及 其 相关 度 


治疗 方案 相关 度 
对 症 治疗 0.6671 
手术 + 放 化 疗 0.6606 
放 化 疗 0.3968 
手术 -0.2165 


由 表 10 可 知 , 在 二 维 语义 空间 内 ， 对 于 图 1 中 的 
出 院 记 录 信 息 推 测 出 的 最 佳 治 疗 方案 为 对 症 治疗 ,而 
病历 信息 中 采取 的 治疗 方案 为 放 化 疗 ， 即 模型 推算 错 
误 。 但 是 , 由 表 11 可 知 , 在 三 维 语义 空间 内 , 对 于 图 1 
中 的 出 院 记录 信息 推算 出 的 最 佳 治 疗 方案 为 放 化 疗 ， 
这 与 实际 病历 信息 中 所 采取 的 治疗 方案 是 一 致 的 ， 即 
模型 推算 正确 。 由 表 12 可 知 , 在 四 维 语义 空间 内 , 对 
于 图 1 中 的 出 院 记 录 信 息 推 测 出 的 最 佳 治疗 方案 为 对 
症 治疗 ,而 病历 信息 中 采取 的 治疗 方案 为 放 化 疗 ， 即 
模型 推算 错误 。 

使 用 所 收集 病历 中 的 1 000 份 测试 样本 ， 对 建立 
的 决策 模型 进行 测试 。 在 二 维 语义 空间 内 , 有 504 份 
测试 样本 经 决策 模型 推算 出 的 治疗 方案 与 实际 采取 的 
治疗 方案 一 致 ， 准 确 率 为 50.4%。 而 在 三 维 语 义 空间 
内 ， 有 605 份 测试 样本 经 决策 模型 推算 出 的 治疗 方案 
与 实际 采取 的 治疗 方案 一 致 ， 准确 率 为 60.5%。 在 四 维 
语义 空间 内 ， 有 529 份 测试 样本 经 决策 模型 推算 出 的 
治疗 方案 与 实际 采取 的 治疗 方案 一 致 ， 准 确 率 为 
52.9%, 


4 结果 及 讨论 


模型 的 测试 结果 显示 , 通过 构建 电子 病历 文本 的 
潜在 语义 空间 ,可 以 从 历史 病历 信息 中 有 效 地 抽取 临 
床 决 策 支 持 规则 ， 建 立 决 策 支 持 模型 。 这 证 明了 潜在 
语义 分 析 方 法 在 医学 文本 分 析 中 有 和 较 好 效果 。 

通过 实验 发 现 , 在 矩阵 降 维 前 ,模型 的 准确 率 为 
52.9%, 通过 对 矩 阵 降 维 , 计算 其 二 维和 三 维 语义 空 
H, 发 现在 二 维 语义 空间 中 ( 见 表 T), 对 症 治疗 和 放 化 
疗 两 种 治疗 方案 在 语义 上 较为 接近 , 在 计算 查询 向 量 
与 治疗 方案 的 相关 度 时 ,两 者 的 相关 度 大 小 接近 ， 导 
致 模型 推算 的 准确 率 较 低 。 而 在 三 维 潜在 语义 空间 中 ， 
临床 术语 和 治疗 方案 的 坐标 向 量 都 较为 精确 , 减少 了 
彼此 间 的 相互 干扰 ,强化 了 临床 术语 与 治疗 方案 之 间 
的 潜在 语义 结构 , 提高 了 模型 推算 的 准确 率 (60.5%)。 
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在 潜在 语义 空间 的 构建 过 程 中 , 维 数 k 的 选择 是 
语义 空间 构建 中 的 关键 。 通 过 查阅 文献 1， 本 研究 中 
将 k 值 分 别 选择 为 2、3 和 4, 构建 二 维 语义 空间 、 三 
维 语义 空间 和 四 维 语义 空间 。 维 数 越 大 ,临床 术语 和 
治疗 方案 的 空间 位 置 越 精 确 , 但 是 会 导致 4 种 治疗 方 
案 的 相关 度 值 大 小 均 较 低 ， 且 数值 大 小 差别 不 大 ; 维 
数 越 小 ,噪音 越 大 , 空间 位 置 不 精确 ， 导 致 治疗 方案 
的 相关 度 值 大 小 均 较 高 。 通 过 实验 发 现 , 选择 三 维 语 
义 空间 ， 治疗 方案 相关 度 值 大 小 差别 大 ,， 旦 空间 位 置 
较为 精确 ,能 够 有 效 地 减少 干扰 因素 , 实验 准确 率 相 
对 较 高 。 


5 结 语 


本 文通 过 抽取 临床 术语 和 治疗 方案 , 构建 临床 术 
语 -治疗 方案 矩阵 , 利用 NumPy DEERE, 完成 了 语 
义 空间 的 构建 、 应 用 和 评价 。 分 别 构建 了 二 维 、 三 维 
和 四 维 潜在 语义 空间 。 在 语义 空间 内 ,可 以 发 现 临 床 
术语 与 治疗 方案 之 间 的 潜在 语义 结构 ,从 中 抽取 辅助 
治疗 方案 选择 的 决策 知识 。 人 研究 结果 可 以 证 实 潜在 语 
义 分析 技 术 能 够 有 效 地 应 用 到 医学 文本 分 析 中 。 

由 于 存在 实验 训练 样本 数量 较 少 , 构建 的 词典 不 
够 完备 , 临床 术语 的 多 样 性 以 及 治疗 方案 抽取 错误 等 
问题 , 在 三 维 语义 空间 内 , 模型 的 准确 率 还 有 待 提高 。 
此 外 ,治疗 方案 抽取 原则 的 制定 至 关 重 要 ,实验 经 过 
大 量 查阅 病历 信息 以 及 咨询 相关 临床 医生 ,并 经 过 反 
复 实验 测试 , 完成 了 治疗 方案 抽取 原则 的 制定 。 虽 然 
抽取 得 到 的 治疗 方案 准确 率 高 , 但 由 于 病历 信息 的 多 
样 性 , 在 抽取 过 程 中 仍然 可 能 会 出 现 错误 。 例 如 ， 某 位 
患者 服用 某 种 特殊 的 化 疗 药物 ,但 是 其 出 院 记 录 中 并 
没有 出 现 化 疗 相 关 字样 , 那么, 在 抽取 治疗 方案 时 ， 
系统 会 认为 该 患者 采用 的 治疗 方案 为 对 症 治疗 , 从 而 
导致 治疗 方案 抽取 错误 。 如 何 提高 治疗 方案 抽取 的 准 
ME, 是 未 来 研究 内 容 之 一 。 
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Abstract: [Objective] This study aims to extract knowledge for clinical decision from electronic medical records 
through semantic analysis. [Methods] We first extracted clinical terms from the training samples by the word 
segmentation algorithm with the help of custom dictionary and statistical method. Then, we used latent semantic 
analysis to find the potential correlations between clinical terms and treatment plans. Finally, we established a latent 
semantic model to support gastric cancer treatments. [Results] We successfully extracted 605 treatment plans from 
1000 test samples based on the discharge summary texts. [Limitations] Only discharge record texts were examined for 
this study. [Conclusions] The latent semantic analysis could effectively process electronic medical records to assist 
doctors' clinical decision-making work, which posed positive effects to the development of electronic medical record 
applications. 

Keywords: Electronic medical record Chinese text segmentation Latent Semantic Analysis Gastric cancer 
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